استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار

thesis
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق
  • author اولدوز حضرتی یادکوری
  • adviser محمد احدی
  • Number of pages: First 15 pages
  • publication year 1386
abstract

بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاده قرار بگیرد. در این پروژه، روشی مبتنی بر کرنل تنها در فاز خوشه بندی مورد استفاده قرار می گیرد. پیاده سازی این روش ساده و حجم محاسباتی مطلوبی دارد. ما این روش خوشه بندی بر مبنای توابع کرنل را که الهام گرفته از روش متداول k-means و بر مبنای ماشین های بردار پشتیبان تک کلاسی (ocsvm) است به عنوان مرحله پیش تطبیق قبل از تکنیک های رایج تطبیق نظیر map و mllr در تطبیق گوینده با نظارت سریع مورد استفاده قرار می دهیم. در بخشی از کار الگوریتم های خوشه بندی مختلفی نظیر خوشه بندی های جنسیت، خوشه بندی k-means،soft k-means و روشی بر مبنای بردار های پشتیبان تک کلاسی جهت تطبیق مورد استفاده قرار گرفته اند و با روش پیشنهادی به دقتی در حدود %3 بهتر از مدل مبنا با دقت %37/90 (دقت مدل si) دست یافتیم. در بخش دیگری از این پروژه استفاده از روش های خوشه بندی ذکر شده به عنوان یک مرحله پیشین در تطبیق به روش های map و mllr مورد استفاده قرار گرفته است. در این حالت نیز به %5/6 بهبودی نسبت به مدل مبنا رسیدیم. در ادامه به جهت بررسی کارایی این روش در امر تطبیق، از چندین روش مختلف برای انتخاب hmm ها استفاده شده است. در بخش دیگری از کار به منظور مقایسه کارایی hmm و gmm در روش استفاده شده جهت امر خوشه بندی در این پروژه، به جای hmm های بکار رفته در مرحله پیش از خوشه بندی، از gmm استفاده شده است و نتایج بدست آمده مورد بررسی قرار گرفته است. تمامی آزمایش های انجام شده در این پروژه بر روی دادگان tidigits صورت گرفته و هیچگونه همپوشانی ای بین گوینده های آموزش و تست وجود ندارد. در انتها نتایج حاصل از تطبیق گوینده به روش eigenvoice و eigenvoice مقاوم آورده شده است که متأسفانه نسبت به مدل مبنا عملکرد ضعیفتری دارند.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واج­های گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآیی­ها، رتبه­بندی واج­ها صورت گرفته‌اند. جهت برآورد کارآیی واج­ها، از یک معیاری که به­صورت نسب « فاصلة بین­گوینده­ای» واج­ها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیده­ایم، استفاده شده است.­ آزمایش­ها و محاسبات لازم برای کلیه واج­های گفتار...

full text

تطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین map مبتنی بر تبدیل mllr

روشهای مختلفی برای تطبیق گوینده در سیستمهای بازشناسی گفتار معرفی گردیده اند. در برخی روشها نظیر تخمین map تنها مدلهایی که داده آموزشی متناظرشان موجود باشد تازه سازی می شوند و برای بهبود قابل توجه دقت بازشناسی، داده آموزشی نسبتاً زیادی مورد نیاز است. در برخی دیگر نظیر mllr که تعدادی تبدیلات عمومی بر روی خوشه های مدلها اعمال می شود، برای دادگان کم آموزشی نتایج مطلوبی حاصل می شود، اما با افزایش داد...

full text

جایگاه گوینده در اعتبار گفتار از دیدگاه احادیث

There are various traditions emphasizing the distinction between the person who speaks and his speech. This shows the importance of understanding and evaluating a speech by itself without considering the speaker. But there are other traditions that emphasize thorough knowledge of speakers so as not to accept everyone's speech. There is an attempt here to study and survey these two groups of tra...

full text

بهبود سرعت شناسایی گوینده در سیستم های با تعداد گوینده بالا با استفاده از خوشه بندی سلسله مراتبی

شناسایی هویت مطمئن یک اصل اساسی برای شروع یک تراکنش تجاری می باشد. استفاده از بیومتریک ها می تواند باعث بالارفتن امنیت، سرعت و سادگی سیستم های شناسایی هویت شود. صدا به عنوان یک بیومتریک با دقت نسبتا بالا، سادگی استفاده و پیاده سازی بالا، هزینه کم و پذیرش بالای کاربر، یک گزینه مناسب برای این منظور می باشد که تا کنون به شکل گسترده ای مورد استفاده قرار گرفته است. یکی از مشکلات سیستم های شناسایی گو...

15 صفحه اول

مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال

با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبست...

15 صفحه اول

تشخیص حالت احساسی از سیگنال گفتار در حالت مستقل از گوینده با استفاده از آنتروپی بسته موجک

در این مقاله آنتروپی بسته موجک برای بازشناسی احساسات از گفتار در حالت مستقل از گوینده پیشنهاد شده است. پس از پیش‌پردازش، بسته موجکِ db3 سطح 4 در هر فریم محاسبه شده است و آنتروپی شانون در گره‌های آن به عنوان ویژگی در نظر گرفته شده است. ضمناً ویژگی‌های نواییِ گفتار شامل فرکانس چهار فرمنت اول، جیتر یا دامنه تغییرات فرکانس گام و شیمر یا دامنه تغییرات انرژی به عنوان ویژگی‌های پرکاربرد در حوزه تشخیص احس...

full text

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023